与从头开始的传统学习相比,知识蒸馏有时会使DNN实现卓越的性能。本文提供了一种新的观点,可以根据信息理论来解释知识蒸馏的成功,即量化在DNN的中间层中编码的知识点。为此,我们将DNN中的信号处理视为丢弃层的信息。知识点称为输入单元,其信息比其他输入单元所丢弃的信息要少得多。因此,我们根据知识点的量化提出了三个用于知识蒸馏的假设。 1. DNN从知识蒸馏中学习比从头开始学习的DNN学习更多的知识点。 2.知识蒸馏使DNN更有可能同时学习不同的知识点。相比之下,从头开始的DNN学习倾向于顺序编码各种知识点。 3.与从头开始学习的DNN学习通常更稳定地优化了从知识蒸馏中学习的DNN学习。为了验证上述假设,我们设计了具有前景对象注释的三种类型的指标,以分析DNN的功能表示,\ textit {i.e。}知识点的数量和质量,不同知识点的学习速度,以及优化方向的稳定性。在实验中,我们诊断出各种DNN的不同分类任务,即图像分类,3D点云分类,二进制情感分类和问题回答,这些问题验证了上述假设。
translated by 谷歌翻译